CN108874937A - 一种基于词性结合和特征选择的情感分类方法 - Google Patents
一种基于词性结合和特征选择的情感分类方法 Download PDFInfo
- Publication number
- CN108874937A CN108874937A CN201810554926.3A CN201810554926A CN108874937A CN 108874937 A CN108874937 A CN 108874937A CN 201810554926 A CN201810554926 A CN 201810554926A CN 108874937 A CN108874937 A CN 108874937A
- Authority
- CN
- China
- Prior art keywords
- word
- speech
- text
- emotion
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Machine Translation (AREA)
Abstract
本发明的基于词性结合和特征选择的情感分类方法,包括如下步骤:首先初始化词语‑词性Word2vec模型;其次对数据进行预处理操作,并基于情感词典从预处理过后的数据中选择具有情感信息的特征词;然后将文本的每个特征词和词性相结合,将文本转化为词语词性对序列文本;再通过词语‑词性Word2vec模型得到词语词性对序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,从而得到文本的特征向量;最后利用SVM分类器得到情感分类模型。有益效果为:采用情感词典提取特征词,凸显具有单情感信息的特征词;另一方面基于短语结构优化分词提取出情感倾向性的短语结构,把词语和词性相结合解决一词多义的问题。
Description
技术领域
本发明涉及计算机科学领域,尤其涉及一种基于词性结合和特征选择的情感分类方法。
背景技术
随着社交网络平台特别是微博的快速发展,大量网民能更加便捷地对社会事件发表意见和表达自己的情感,由此产生了海量的微博评论数据,这些数据背后蕴含了丰富的观点和情感信息,针对微博文本的海量数据如何深入分析挖掘其情感倾向已经成为一个热门的研究方向。传统的情感分类方法只关注词汇特征和句法特征,忽略了词语间的语义特征。
传统的Word2vec训练出来的词向量模型尽管能够反映词与词之间潜在的语义关联,但是在训练模型时往往存在一些问题,一是Word2vec工具不能直接提取出更能反映文本情感倾向的短语结构,例如,“不开心”被分为“不”和“开心”,Word2vec训练时是按照“不”和“开心”两个词进行上下文语义的学习,不能直接学习到“不开心”这个短语的矢量。二是不能区分相同词语在不同词性下的语义,例如,“小明买了一捆香,用于祭祀,可这次买的香太垃圾了”和“小明烧的饭可真香”,前一句中的“香”是名词,指的是祭祖或是敬神时所用的用木屑搀上香料做成的细条,没有感情色彩,是个中性词;后一句中的“香”是形容词,形容气味好闻,是个褒义词。由此看出,同一个词在不同语境下会有不同的含义,更带有不同的感情色彩,如果直接将词不带区分的训练,这样训练出来的模型会产生语义的歧义,从而给分类模型训练带来了噪声干扰,因此本文提出基于短语结构和词语词性相结合的方法来解决上述问题。
传统的数据存储和处理方式,大大浪费了计算机的资源与时间。且传统的Hadoop集群由于其分步处理的机制,限制了其性能效率,对于磁盘的I/O开销极大。
发明内容
本发明目的在于克服上述现有技术的不足,提供了一种基于词性结合和特征选择的情感分类方法,具体由以下技术方案实现:
所述基于词性结合和特征选择的情感分类方法,对文本进行情感进行积极与消极的二元分类,包括如下步骤:
步骤1)初始化词语-词性Word2vec模型。
步骤2)对文本进行预处理操作,并基于情感词典从预处理过后的文本数据中选择具有情感信息的特征词。
步骤3)将文本的每个特征词和词性相结合,将文本转化为“词语词性对”序列文本。
步骤4)通过所述词语-词性Word2vec模型得到“词语词性对”序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,得到文本的特征向量。
步骤5)将所述特征向量作为SVM分类器的输入得到情感分类模型。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,所述步骤1)具体为:首先将多元搭配情感词典导入到Pyton Jieba分词工具的用户自定义词典后对训练词向量的大规模语料进行优化分词操作;再将分词后的文本的每个词语和词性相融合构成“词语词性对”序列文本,表示方式为(词语,词性)的形式;最后通过Word2vec工具训练所述“词语词性对”序列文本得到词语-词性Word2vec模型。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,步骤2)中预处理操作是指对文本数据进行清洗操作、分词操作以及去停用词操作。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,步骤2)特征词的选择是指通过上文构造的情感词典从预处理过后的文本数据中筛选出有情感信息的特征词构成新的文本以待获取文本的特征向量。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,所述情感词典由基础情感词典、扩展情感词典和多元搭配情感词典共同组成。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,扩展情感词典通过如下步骤进行扩建:
步骤a)将采集到大规模微博语料库称为扩展语料库,并对其进行清洗、分词和去停用词的预处理操作,通过Word2vec工具对预处理后的扩展语料库进行训练生成词向量模型w2v_extend并保存模型;
步骤b)对语料库进行预处理操作,预处理操作包括对数据的清洗、分词以及去停用词;
步骤c)计算预料库中每个词的词频-逆文件频率TF-IDF值,并按照TF-IDF值对词按从大到小排序,得到词集W={(w1,tfidf1),(w2,tfidf2),…,(wm,tfidfm)};步骤d)生成基准情感词,基准情感词分为褒义种子情感词和贬义种子情感词,从词集W选取属于中文情绪词汇本体库的词语,并选取褒义种子情感词、贬义种子情感词各K个词,构成褒义种子词集SWp={wp1,wp2,…wpk}和贬义种子词集SWn={wn1,wn2,…wnk}。
步骤e)生成候选情感词集,从词集W去掉种子词集,并比较剩下的每个词wi的tfidfi值,选择的词语构成候选词集CW={cw1,cw2,…,cwn};
步骤f)使用所述w2v_extend模型计算目标词和种子词之间的相似度,通过所述相似度判断目标词的情感极性;
步骤g)输出扩展情感词典。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,所述步骤f)中w2v_extend模型通过式(1)、式(2)以及式(3)计算目标词与褒义和贬义种子情感的种子集之间的距离,并通过所述距离表示目标词与褒义和贬义种子情感的种子集之间的相似度,
f(SW,word)=fp(SWp,word)-fn(SWn,word) (3)
其中,fp(SWp,word)是指目标词与褒义种子情感词集合Wp={Wp1,Wp2,…,Wpk}之间的平均余弦距离,Wpi是褒义种子情感词集合中的第i个词,fn(SWn,word)是指目标词与贬义种子情感词集合Wn={Wn1,Wn2,…,Wnk}之间的平均余弦距离,Wni是贬义种子情感词集合中的第i个词;若f(SW,word)>0,时,则词语属于积极情感词;若f(SW,word)<0时,则词语属于消极情感词。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,所有的数据清洗与分词操作通过Hadoop并行计算框架下的Spark进行并行处理。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,多元搭配情感词典的构建为:首先利用Python Jieba分词工具对数据集进行分词,再根据表设定的规则,将被分开的词能够重新组成一个新的短语,若所述新的短语与原文本的内容相匹配,则将所述新的短语加入所述多元搭配情感词典。
所述基于词性结合和特征选择的情感分类方法的进一步设计在于,设定的规则为词语的词性设置标签,所述标签分别表示程度副词、否定词以及特征词;并设置组合规则使得被分开的词组成一个新的短语,所述组合规则为程度副词修饰特征词,使得特征词的情感强度加强或减弱;否定词修饰特征词,使得特征词的情感极性发生转变;否定词与程度副词同时修饰特征词使得特征词的情感强度加强或减弱或特征词的情感极性发生改变。
本发明的优点如下:
本发明的基于短语结构和词语词性相结合的情感分类方法采用多种情感词典融合来提取文本中有价值的特征词,剔除无用的特征词,来凸显文本中具有单情感信息的特征词;另一方面基于短语结构优化分词提取出能直接反映句子情感倾向性的短语结构,然后再把词语和词性相结合解决一词多义的问题。该方法都优越于基于所有特征选择的方法,该方法的正确率达到了78.5%,比基于所有特征的方法提将近5.7%。该方法的正类F1值达到了80.94%,比基于所有特征的方法提高了5.7%。该方法的负类F1值率达到了75.33%,比基于所有特征的方法提高了5.4%。
本发明的数据清洗与分词操作等预处理操作通过Hadoop并行计算框架下的Spark进行并行处理,加快,优化数据处理方法,加快数据处理速度,便于更大规模的数据进行处理。
附图说明
图1为基于Word2vec和SVM情感分析的流程示意图。
图2为情感词典的组成示意图。
图3为扩展情感词典的构建流程示意图。
图4为词语-词性Word2vec模型训练流程图。
具体实施方式
以下结合附图,对本发明的技术方案进行详细说明。本实施例是以微博评论文本作为输入的文本数据。
如图1,本实施例的基于词性结合和特征选择的情感分类方法,对文本进行情感进行积极与消极的二元分类,包括如下步骤:
步骤1)初始化词语-词性Word2vec模型。
步骤2)对文本进行预处理操作,并基于情感词典从预处理过后的文本数据中选择具有情感信息的特征词。本实施例的情感词典由基础情感词典、扩展情感词典和多元搭配情感词典组成。
步骤3)将每个特征词和词性相结合,将文本转化为“词语词性对”序列文本。
步骤4)通过所述词语-词性Word2vec模型得到“词语词性对”序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,得到文本的特征向量。
步骤5)将所述特征向量作为SVM分类器的输入得到情感分类模型。
如图4,本实施例的步骤1)具体为:首先将多元搭配情感词典导入到Pyton Jieba分词工具的用户自定义词典后对训练词向量的大规模语料进行优化分词操作;再将分词后的文本的每个词语和词性相融合构成“词语词性对”序列文本,表示方式为(词语,词性)的形式;最后通过Word2vec工具训练所述“词语词性对”序列文本得到词语-词性Word2vec模型。
进一步的,步骤2)中预处理操作是指对文本数据进行清洗操作、分词操作以及去停用词操作。步骤2)中特征词的选择是指通过上文构造的情感词典从预处理过后的文本数据中筛选出有情感信息的特征词构成新的文本以待获取文本的特征向量。
如图3,扩展情感词典会自行进行扩建操作。扩建操作包括如下步骤:
步骤a)通过Word2vec对大规模语料库进行模型训练得到Word2vec模型并保存。步骤b)对特定语料库预处理,预处理包括对数据的清洗、分词和去停用词等。步骤c)计算微博预料库中每个词的的词频-逆文件频率TF-IDF值,并按照TF-IDF值对词按从大到小排序,得到词集W={(w1,tfidf1),(w2,tfidf2),…,(wm,tfidfm)}。
步骤d)生成基准情感词。基于Word2vec算法的情感词典扩建需要基准词,基准词分为褒义和贬义两种,褒义情感种子词典如表1所示,贬义情感种子词典如表2所示。
表1
表2
步骤e)生成候选情感词集。从词集W去掉种子词集,并比较剩下的每个词wi的tfidfi值,选择的词语构成候选词集CW={cw1,cw2,…,cwn}。
步骤f)使用步骤a)生成的w2v_extend模型计算计算目标词和基准词之间的用于表示相似度的距离值,通过距离值判断目标词的情感极性。
步骤d)中根据式(1)、式(2)以及式(3),通过Word2vec模型计算目标词与基准词之间的相似度,
f(SW,word)=fp(SWp,word)-fn(SWn,word) (3)
其中,fp(SWp,word)是指目标词与褒义种子情感词集合Wp={Wp1,Wp2,…,Wpk}之间的平均余弦距离,Wpi是褒义种子情感词集合中的第i个词,fn(SWn,word)是指目标词与贬义种子情感词集合Wn={Wn1,Wn2,…,Wnk}之间的平均余弦距离,Wni是贬义种子情感词集合中的第i个词;若f(SW,word)>0,时,则词语属于积极情感词;若f(SW,word)<0时,则词语属于消极情感词。
步骤a)包括如下步骤:
步骤a-1)构建语料库。
步骤a-2)对语料库进行清洗和预处理。由于本实施例使用微博文本,而微博文本与普通文本不同,它具有很多普通文本不具备的特点。最明显的是,微博文本经常会出现一些表情符号、图片、网页链接,提及某人的符号等信息元素。这些信息元素不仅给微博文本带来丰富和色彩,而且也给一些研究带来一些困难。因此,为了便于研究工作,对微博文本的预处理主要包括以下几个方面:
1、过滤Web链接。可以通过链接“http”标志,过滤掉网页链接。
2、过滤“//@+用户名+文本内容”。由于微博提供了转发他人微博评论的功能,由于//@+用户名属于无用信息,所以这部分将被去掉。
3、过滤“@+用户名”。微博提供了@他人的功能,这部分对情绪分析没有实质性影响,所以这部分将被过滤掉。
4、保留微博表情符号。表情符号对于情感分析非常有用,所以表情符号应该保留。
步骤a-3)通过Python Jieba分词工具对语料库进行分词。
步骤4)主要就是通过Word2vec工具训练训练集生成词语-词性Word2vec模型。本实施例通过Python Jieba分词工具对文本进行分词操作,该工具可以导入用户自定义词典以此来优化分词,本实施例导入通过短语结构构建的多元搭配情感词典提取出文本中能够直接反映文本情感的短语,其次通过将文本中的每个特征词和其对应的词性相结合获得“单词-词性对”序列,表示方式为(词语,词性),最后将以文本由原来的“词语”表达方式转化为“(词语,词性)”的表达方式作为Word2vec工具的输入,以输出(词语,词性)相结合的概率为输出进行词语-词性Word2vec模型训练。
对于给定的一份训练集train由n条文本组成train={s1,s2,….,xn},首先对训练集进行分词操作,每篇文本si被拆分为si_pos,si_pos的长度为il且以“单词-词性”的序列形式保存,si_pos={(w1,p1),(w2,p2),….,(wil,pil)},训练集变为train_pos序列,train_pos={s1_pos,s2_pos,…..sn_pos},以train_pos序列为输入,结合Word2vec进行模型训练,得到结合词性的Word2vec模型。基于短语结构和词语词性相结合的Word2vec模型训练流程,参加图4。
多元搭配情感词典的构建为:首先利用Python Jieba分词工具对数据集进行分词,再根据表设定的规则,将被分开的词能够重新组成一个新的短语,若所述新的短语与原文本的内容相匹配,则将所述新的短语加入所述多元搭配情感词典。
设定的规则为词语的词性设置标签,所述标签分别表示程度副词、否定词以及情感特征词,参见表3;并设置组合规则使得被分开的词组成一个新的短语,所述组合规则为程度副词修饰特征词,使得特征词的情感强度加强或减弱;否定词修饰特征词,使得特征词的情感极性发生转变;否定词与程度副词同时修饰特征词使得特征词的情感强度加强或减弱或特征词的情感极性发生改变,参见表4。
表3
表4
对于预处理操作,文本中的句子绝大数能够被拆分成词语,但有些短语是不能被拆分成单个词语,否则会影响句子的情感极性,因此进行分词操作时需要避免将这些词分开。Python Jieba分词工具提供了解决方案,只需要加载自定义词典就能避免将短语分开。自定义词典即上文构建的情感词典,分为三种:一是基本情感词典,二是Word2vec算法得到的扩展情感词典,三是分词优化得到的多元搭配情感词典,对三种词典的不同组合分别做分词操作,测试每个词典对于情感分类准确性的影响程度。对于特征选择使用的情感词典应和分词操作使用的情感词典前后保持一致。
多元搭配情感词典优化分词的具体算法见表5。
表5
特征选择操作是基于之前构造的情感词典,基于情感词典的特征选择具体算法如表6所示。
表6
平均化操作指计算每条文本所包含的所有词语的词向量每个维度的算数平均值,具体算法如表7所示。
表7
如图2,本实施例的情感词典由基础情感词典、扩展情感词典和多元搭配情感词典共同组成。基础情感词典主要包含贬义词和褒义词的词典。目前,较为成熟的开源情感词典有中英文情感词典HowNet、台湾大学简体中文情感词典NTUSD、清华大学情感词典和大连理工大学中文情绪词汇本体库等。本文的基础情感词典主要来自知网HowNet提供的情感词语词典和评价词语词典和台湾大学提供的简体中文情感词典NTUSD。
HowNet包含了中文和英文的数据集,有正面评价词语、正面情感词语、负面评价词语、负面情感词语、主张词语、程度级别词语,本文选择中文的正面评价词语、正面情感词语、负面评价词语和负面情感词语组合成HowNet的情感词语词典。其中正面评价词语和正面情感词语构成正面词典,共计4566个褒义词;负面评价词语和负面情感词语构成负面词典,共计4370个贬义词。
台湾大学简体中文情感词典NTUSD(National Taiwan University SentimentDictionary)包含了2810个褒义词和8276个负面词语。
通过观察发现一些情感词同时存在两个词典中,但是词语的情感极性却相反,因此本文将去除这些词。经过上述操作后,将两个词典进行融合并去重,组成基础情感词典。表8列出了部分基础情感词典的示例。
表8
程度副词在中文文本中经常出现,通常是用来修饰名词或是动词。程度副词对其修饰词语的情感强弱有一定的增强或者减弱作用,从而影响文本的感情倾向。例如:起到增强作用的程度副词“非常”、“十分”,起到削弱作用的程度副词“有些”、“稍微”。
HowNet提供的程度副词用于构造程度副词词典。有219个副词,分为6个等级,它们分别超,最,很,较,稍和欠。表9列出了部分程度副词词典的示例。
表9
否定词也能对感情词语起到修饰作用,因此需要保留否定词。从广义上来说,否定词属于程度副词,但由于否定词对其修饰的词语影响程度太深,能够直接改变其修饰的词语原来的情感极性,因此需要专门为否定词建立一个否定词词典。例如,“不”、“无”、“非”等否定词,当一个人描述“我不开心”时,“开心”是个褒义词,表达了积极的情感,但句子中存在否定词“不”,直接翻转整个句子情感极性。因此在文本情感分析中,否定词有着重要作用,本文部分否定词如表10所示。
表10
关系连词能够反映句子之间的关系,是用来连接词语和句子等的词。在文本情感分析时,关系连词词典对有着关系连词的句子起辅助作用。有些关系连词使得前后句子的情感极性相同;有些关系连词则使得前后句子的情感极性相反。如果网络评论与关系连词联系起来,则句子的情感可以通过关系连词的辅助功能进行分析。本文通过对许多已经标记了情感极性的网络评论本进行分词处理后,根据句子的情感极性,可以得到关系连词词典。关系连词分为五个部分,即并列关系、递进关系、因果关系、让步关系以及转折关系,本文部分关系连词词典如表11所示。
表11
由于微博平台提供了大量的表情符号,这些表情符号可以表达用户的意见,因此表情符号经常被用在微博文本中。用户可以根据自己的需求选择不同的表情符号来准确地表达自己情绪,因此文微博文本中的表情符号表情符号能够一定程度上反映了用户的情感倾向,对于文本情感分析非常有用
表情符号在微博文本中是以“[”、“]”中间加上文字形式进行记录,本文可以利用正则表达式方便快捷地从文本中提取出表情符号。本文对微博上常见的表情符号进行了收集与整理,取其中有比较明显感情色彩的词语形成表情词典,部分表情词典如表12所示。
表12
本文采用SVM分类器对数据集进行文本情感分类且为二元分类,即将情感分为积极和消极两类。进一步的,SVM的训练分类模型首先将多元搭配情感词典导入到PythonJieba自定义词典中对训练文本进行分词操作,并结合词性将文本转化为“词语-词性对”序列,然后利用词语-词性Word2vec模型结合平均化操作得到特征向量,将得到的特征向量作为SVM的输入,训练得到情感分类模型。测试操作首先将测试评论文本按词性进行分词操作并融合词性将文本转化为“词语-词性对”序列,然后利用词语-词性Word2vec模型结合平均化操作得到特征向量,利用已经得到的分类模型进行预测,参见图1。
本实施例的基于短语结构和词语词性相结合的情感分类方法采用多种情感词典融合来提取文本中有价值的特征词,剔除无用的特征词,来凸显文本中具有单情感信息的特征词;另一方面基于短语结构优化分词提取出能直接反映句子情感倾向性的短语结构,然后再把词语和词性相结合解决一词多义的问题。该方法都优越于基于所有特征选择的方法,该方法的正确率达到了78.5%,比基于所有特征的方法提将近5.7%。该方法的正类F1值达到了80.94%,比基于所有特征的方法提高了5.7%。该方法的负类F1值率达到了75.33%,比基于所有特征的方法提高了5.4%。
本实施例的数据清洗与分词操作等预处理操作通过Hadoop并行计算框架下的Spark进行并行处理,加快,优化数据处理方法,加快数据处理速度,便于更大规模的数据进行处理。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。
Claims (10)
1.一种基于词性结合和特征选择的情感分类方法,对文本进行情感进行积极与消极的二元分类,其特征在于包括如下步骤:
步骤1)初始化词语-词性Word2vec模型;
步骤2)对文本进行预处理操作,并基于情感词典从预处理过后的文本数据中选择具有情感信息的特征词;
步骤3)将文本的每个特征词和词性相结合,将文本转化为“词语词性对”序列文本;
步骤4)通过所述词语-词性Word2vec模型得到“词语词性对”序列文本的每个特征词的向量,并对每一条文本按维度将词语的向量相加后取平均值来表示文本,得到文本的特征向量;
步骤5)将所述特征向量作为SVM分类器的输入得到情感分类模型。
2.根据权利要求1所述的基于词性结合和特征选择的情感分类方法,其特征在于所述步骤1)具体为:首先将多元搭配情感词典导入到Pyton Jieba分词工具的用户自定义词典后对训练词向量的大规模语料进行优化分词操作;再将分词后的文本的每个词语和词性相融合构成“词语词性对”序列文本,表示方式为(词语,词性)的形式;最后通过Word2vec工具训练所述“词语词性对”序列文本得到词语-词性Word2vec模型。
3.根据权利要求1所述的基于词性结合和特征选择的情感分类方法,其特征在于步骤2)中预处理操作是指对文本数据进行清洗操作、分词操作以及去停用词操作。
4.根据权利要求3所述的基于词性结合和特征选择的情感分类方法,其特征在于步骤2)特征词的选择是指通过上文构造的情感词典从预处理过后的文本数据中筛选出有情感信息的特征词构成新的文本以待获取文本的特征向量。
5.根据权利要求1所述的基于词性结合和特征选择的情感分类方法,其特征在于所述情感词典由基础情感词典、扩展情感词典和多元搭配情感词典组成。
6.根据权利要求5所述的基于词性结合和特征选择的情感分类方法,其特征在于扩展情感词典通过如下步骤进行扩建:
步骤a)将采集到大规模微博语料库称为扩展语料库,并对其进行清洗、分词和去停用词的预处理操作,通过Word2vec工具对预处理后的扩展语料库进行训练生成词向量模型w2v_extend并保存模型;
步骤b)对语料库进行预处理操作,预处理操作包括对数据的清洗、分词以及去停用词;
步骤c)计算预料库中每个词的词频-逆文件频率TF-IDF值,并按照TF-IDF值对词按从大到小排序,得到词集W={(w1,tfidf1),(w2,tfidf2),…,(wm,tfidfm)};步骤d)生成基准情感词,基准情感词分为褒义种子情感词和贬义种子情感词,从词集W选取属于中文情绪词汇本体库的词语,并选取褒义种子情感词、贬义种子情感词各k个词,构成褒义种子词集SWp={wp1,wp2,…wpk}和贬义种子词集SWn={wn1,wn2,…wnk};
步骤e)生成候选情感词集,从词集W去掉种子词集,并比较剩下的每个词wi的tfidfi值,选择的词语构成候选词集CW={cw1,cw2,…,cwn};
步骤f)使用所述w2v_extend模型计算目标词和种子词之间的相似度,通过所述相似度判断目标词的情感极性;
步骤g)输出扩展情感词典。
7.根据权利要求6所述的基于词性结合和特征选择的情感分类方法,其特征在于所述步骤f)中w2v_extend模型通过式(1)、式(2)以及式(3)计算目标词与褒义和贬义种子情感的种子集之间的距离,并通过所述距离表示目标词与褒义和贬义种子情感的种子集之间的相似度,
f(SW,word)=fp(SWp,word)-fn(SWn,word) (3)
其中,fp(SWp,word)是指目标词与褒义种子情感词集合Wp={Wp1,Wp2,…,Wpk}之间的平均余弦距离,Wpi是褒义种子情感词集合中的第i个词,fn(SWn,word)是指目标词与贬义种子情感词集合Wn={Wn1,Wn2,…,Wnk}之间的平均余弦距离,Wni是贬义种子情感词集合中的第i个词;若f(SW,word)>0,时,则词语属于积极情感词;若f(SW,word)<0时,则词语属于消极情感词。
8.根据权利要求3或6所述的基于词性结合和特征选择的情感分类方法,其特征在于所有的数据清洗与分词操作通过Hadoop并行计算框架下的Spark进行并行处理。
9.根据权利要求5所述的基于词性结合和特征选择的情感分类方法,其特征在于多元搭配情感词典的构建为:首先利用Python Jieba分词工具对数据集进行分词,再根据表设定的规则,将被分开的词能够重新组成一个新的短语,若所述新的短语与原文本的内容相匹配,则将所述新的短语加入所述多元搭配情感词典。
10.根据权利要求9所述的基于词性结合和特征选择的情感分类方法,其特征在于设定的规则为词语的词性设置标签,所述标签分别表示程度副词、否定词以及特征词;并设置组合规则使得被分开的词组成一个新的短语,所述组合规则为程度副词修饰特征词,使得特征词的情感强度加强或减弱;否定词修饰特征词,使得特征词的情感极性发生转变;否定词与程度副词同时修饰特征词使得特征词的情感强度加强或减弱或特征词的情感极性发生改变。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554926.3A CN108874937B (zh) | 2018-05-31 | 2018-05-31 | 一种基于词性结合和特征选择的情感分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810554926.3A CN108874937B (zh) | 2018-05-31 | 2018-05-31 | 一种基于词性结合和特征选择的情感分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108874937A true CN108874937A (zh) | 2018-11-23 |
CN108874937B CN108874937B (zh) | 2022-05-20 |
Family
ID=64335037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810554926.3A Active CN108874937B (zh) | 2018-05-31 | 2018-05-31 | 一种基于词性结合和特征选择的情感分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108874937B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN109933793A (zh) * | 2019-03-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 文本极性识别方法、装置、设备及可读存储介质 |
CN110110083A (zh) * | 2019-04-17 | 2019-08-09 | 华东理工大学 | 一种文本的情感分类方法、装置、设备及存储介质 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话*** |
CN110532391A (zh) * | 2019-08-30 | 2019-12-03 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
CN111597329A (zh) * | 2019-02-19 | 2020-08-28 | 北大方正集团有限公司 | 一种基于多语种的情感分类方法及*** |
CN112200674A (zh) * | 2020-10-14 | 2021-01-08 | 上海谦璞投资管理有限公司 | 一种证券市场情绪指数智能计算信息*** |
CN112861541A (zh) * | 2020-12-15 | 2021-05-28 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
CN113343706A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 基于多模态特征和语义规则的文本抑郁倾向检测*** |
CN108874937B (zh) * | 2018-05-31 | 2022-05-20 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN116805147A (zh) * | 2023-02-27 | 2023-09-26 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
CN107066449A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874937B (zh) * | 2018-05-31 | 2022-05-20 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
-
2018
- 2018-05-31 CN CN201810554926.3A patent/CN108874937B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
CN107066449A (zh) * | 2017-05-09 | 2017-08-18 | 北京京东尚科信息技术有限公司 | 信息推送方法和装置 |
Non-Patent Citations (2)
Title |
---|
BAIXUE 等: "A Study on Sentiment Computing and Classification of Sina Weibo with Word2vec", 《2014 IEEE INTERNATIONAL CONGRESS ON BIG DATA》 * |
苏增才: "基于word2vec和SVMperf的网络中文文本评论信息情感分类研究", 《中国优秀硕士学位论文全文数据库 信息科技辑》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108874937B (zh) * | 2018-05-31 | 2022-05-20 | 南通大学 | 一种基于词性结合和特征选择的情感分类方法 |
CN109885687A (zh) * | 2018-12-29 | 2019-06-14 | 深兰科技(上海)有限公司 | 一种文本的情感分析方法、装置、电子设备及存储介质 |
CN111597329B (zh) * | 2019-02-19 | 2023-09-19 | 新方正控股发展有限责任公司 | 一种基于多语种的情感分类方法及*** |
CN111597329A (zh) * | 2019-02-19 | 2020-08-28 | 北大方正集团有限公司 | 一种基于多语种的情感分类方法及*** |
CN109933793A (zh) * | 2019-03-15 | 2019-06-25 | 腾讯科技(深圳)有限公司 | 文本极性识别方法、装置、设备及可读存储介质 |
CN109933793B (zh) * | 2019-03-15 | 2023-01-06 | 腾讯科技(深圳)有限公司 | 文本极性识别方法、装置、设备及可读存储介质 |
CN110110083A (zh) * | 2019-04-17 | 2019-08-09 | 华东理工大学 | 一种文本的情感分类方法、装置、设备及存储介质 |
CN110362819A (zh) * | 2019-06-14 | 2019-10-22 | 中电万维信息技术有限责任公司 | 基于卷积神经网络的文本情感分析方法 |
CN110473534A (zh) * | 2019-07-12 | 2019-11-19 | 南京邮电大学 | 一种基于深度神经网络的老年人看护对话*** |
CN110532391A (zh) * | 2019-08-30 | 2019-12-03 | 网宿科技股份有限公司 | 一种文本词性标注的方法及装置 |
CN111159409B (zh) * | 2019-12-31 | 2023-06-02 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
CN111159409A (zh) * | 2019-12-31 | 2020-05-15 | 腾讯科技(深圳)有限公司 | 基于人工智能的文本分类方法、装置、设备、介质 |
CN112200674B (zh) * | 2020-10-14 | 2022-09-13 | 上海谦璞投资管理有限公司 | 一种证券市场情绪指数智能计算信息*** |
CN112200674A (zh) * | 2020-10-14 | 2021-01-08 | 上海谦璞投资管理有限公司 | 一种证券市场情绪指数智能计算信息*** |
CN112861541B (zh) * | 2020-12-15 | 2022-06-17 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
CN112861541A (zh) * | 2020-12-15 | 2021-05-28 | 哈尔滨工程大学 | 一种基于多特征融合的商品评论情感分析方法 |
CN113343706A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 基于多模态特征和语义规则的文本抑郁倾向检测*** |
CN113343706B (zh) * | 2021-05-27 | 2023-10-31 | 山东师范大学 | 基于多模态特征和语义规则的文本抑郁倾向检测*** |
CN116805147A (zh) * | 2023-02-27 | 2023-09-26 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
CN116805147B (zh) * | 2023-02-27 | 2024-03-22 | 杭州城市大脑有限公司 | 应用于城市大脑自然语言处理的文本标注方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN108874937B (zh) | 2022-05-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108874937A (zh) | 一种基于词性结合和特征选择的情感分类方法 | |
Kaur et al. | A survey on sentiment analysis and opinion mining techniques | |
Danisman et al. | Feeler: Emotion classification of text using vector space model | |
Sykora et al. | Emotive ontology: Extracting fine-grained emotions from terse, informal messages | |
Korenek et al. | Sentiment analysis on microblog utilizing appraisal theory | |
Giachanou et al. | Propagating sentiment signals for estimating reputation polarity | |
Gezici et al. | Su-sentilab: A classification system for sentiment analysis in twitter | |
Banik et al. | Survey on text-based sentiment analysis of bengali language | |
Gaanoun et al. | Darijabert: a step forward in nlp for the written moroccan dialect | |
Vīksna et al. | Sentiment analysis in Latvian and Russian: A survey | |
Bayoudhi et al. | Sentiment classification at discourse segment level: Experiments on multi-domain Arabic corpus | |
Al-Harbi | Using objective words in the reviews to improve the colloquial arabic sentiment analysis | |
Wu et al. | Thu_ngn at semeval-2018 task 2: Residual cnn-lstm network with attention for english emoji prediction | |
Banados et al. | Optimizing support vector machine in classifying sentiments on product brands from Twitter | |
Bloom et al. | Automated learning of appraisal extraction patterns | |
Sweeney et al. | Multi-entity sentiment analysis using entity-level feature extraction and word embeddings approach. | |
Song et al. | A lexical updating algorithm for sentiment analysis on Chinese movie reviews | |
Kumar et al. | Multimodal sentiment prediction based on the integration of text and emojis | |
Sharma et al. | Hybrid classifier for sentiment analysis using effective pipelining | |
Boldrini et al. | Machine learning techniques for automatic opinion detection in non-traditional textual genres | |
Han et al. | A topic-independent hybrid approach for sentiment analysis of Chinese microblog | |
Shalunts et al. | Sentiment analysis in Indonesian and French by SentiSAIL | |
CN110489522A (zh) | 一种基于用户评分的情感词典构建方法 | |
Singh et al. | Advancing NLP for Punjabi Language: A Comprehensive Review of Language Processing Challenges and Opportunities | |
Nandan et al. | Sentiment Analysis of Twitter Classification by Applying Hybrid-Based Techniques |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |