CN106096664B - 一种基于社交网络数据的情感分析方法 - Google Patents
一种基于社交网络数据的情感分析方法 Download PDFInfo
- Publication number
- CN106096664B CN106096664B CN201610475678.4A CN201610475678A CN106096664B CN 106096664 B CN106096664 B CN 106096664B CN 201610475678 A CN201610475678 A CN 201610475678A CN 106096664 B CN106096664 B CN 106096664B
- Authority
- CN
- China
- Prior art keywords
- data
- feature
- sentiment
- emotional
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 51
- 230000002996 emotional effect Effects 0.000 claims abstract description 111
- 238000012549 training Methods 0.000 claims abstract description 38
- 238000000605 extraction Methods 0.000 claims abstract description 19
- 239000000284 extract Substances 0.000 claims abstract description 9
- 230000008451 emotion Effects 0.000 claims description 37
- 238000000034 method Methods 0.000 claims description 18
- 238000012986 modification Methods 0.000 claims description 7
- 230000004048 modification Effects 0.000 claims description 7
- 230000007935 neutral effect Effects 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 3
- 239000013589 supplement Substances 0.000 claims description 3
- 230000001755 vocal effect Effects 0.000 claims description 3
- 230000008569 process Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 4
- 238000005034 decoration Methods 0.000 description 2
- 239000003607 modifier Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 206010028916 Neologism Diseases 0.000 description 1
- 235000004240 Triticum spelta Nutrition 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000008439 repair process Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/285—Selection of pattern recognition techniques, e.g. of classifiers in a multi-classifier system
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于社交网络数据的情感分析方法,包括:提取用户在社交网络平台上的发布数据;利用标注器对发布数据进行分词和标注;对进行分词和标注后的发布数据进行文本预处理和依存解析;将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集;分别对训练集或预测集的发布数据进行情感分类特征提取;采用线性支持向量机模型对在训练集上提取的情感分类特征进行训练,获得情感分析分类器;采用情感分析分类器对预测集中的情感分类特征进行分析,预测出用户在社交网络平台上发布的目标数据的情感倾向。本发明针对社交网络数据的特点,有效提高对情感倾向预测的准确性。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于社交网络数据的情感分析方法。
背景技术
随着社交网络的迅速发展,各种社交网络平台,如推特(Twitter)等,正逐渐被公众广泛接受,用户在这些社交网络平台上发布的数据信息(俗称“微博”)亦呈海量增长。由于受到字数的限制,且用户常常是随性而作,微博的语句中往往使用了许多非正式文本的网络用语,包括各种具有情感含义的标点符号和表情、缩略词、俚语、新词、网页链接等信息,并具有简短、口语化、易出现拼写错误等特点。这导致传统的处理正式文本情感分类的方法在应用到社交网络平台的数据分析上时效果不理想,而如何根据社交网络数据的特点进行文本处理,并分析其所表达情感成为了一个新的技术难题。
传统的文本分类方法常用词汇向量化方法来描述文本特征,并以期限频率逆文档频度(TF-IDF)作为权重指标。这种从情感词汇角度作为切入点,以词频作为特征向量的情感分析方法适用于文本分类模型。情感分析的研究目的旨在对文本所表达的感情倾向进行分类,如褒义(Positive),贬义(Negative),中立(Neutral)等。但现有情感分析模型适用于正式文本,并未考虑词汇间的关系和句子结构特征,无法处理这种简短、带有较多表情符号、拼写错误且句法结构模糊的社交网络数据。
发明内容
本发明所要解决的技术问题是,提供一种基于社交网络数据的情感分析方法,针对社交网络数据的特点,提高对社交网络数据的情感倾向预测的准确性。
为解决以上技术问题,本发明实施例提供一种基于社交网络数据的情感分析方法,包括:
根据用户序列号,通过API接口并使用Python脚本提取用户在社交网络平台上的发布数据;
利用标注器对所述发布数据进行分词和标注;所述标注包括词性标注和符号标注;
对进行分词和标注后的发布数据进行文本预处理和依存解析,过滤冗余数据,获取句法结构特征和词汇之间的依存关系;
将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集;
分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取;
采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练,获得情感分析分类器;
采用所述情感分析分类器对所述预测集中的情感分类特征进行分析,预测出用户在社交网络平台上发布的目标数据的情感倾向。
在一种可实现的方式中,所述对进行分词和标注后的发布数据进行文本预处理,包括:
对发布数据中无关情感倾向的数据进行过滤;对发布数据中的表情符号的感情倾向进行归类和标注;所述感情倾向划分为极其褒义,褒义,中立,贬义和极其贬义五种类型。
进一步地,所述对进行分词和标注后的发布数据进行文本预处理,还包括:
对发布数据中的缩略词进行扩展还原,并统计所述缩略词在发布数据中出现的频度;对发布数据中的重复字符进行统一化字符替换;以及,查找发布数据中的否定词,并标记出所述否定词在发布数据中的位置。
优选地,所述采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练,获得情感分析分类器,包括:
利用所述线性支持向量机模型,将训练集的样本空间映射到一个高维特征空间,并在所述高维特征空间上构建全局最优的分割超平面,生成情感分析分类器;为所述线性支持向量机模型设定对离群点的惩罚因子,以权衡样本点与模型之间的拟合。优选地,所述对离群点的惩罚因子的值为0.005。
优选地,所述词汇之间的依存关系通过依存类型、主导词和依存词进行描述;每个词汇在其所属依存关系中作为主导词或依存词;所述依存关系包括:形容词补充、副词修饰、形容词修饰、名词主语、被动型名词主语中的任意一项。
在一种可实现的方式中,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,包括:
提取用于描述发布数据的文体风格及其表达方式的文体特征。
进一步地,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,还包括:
根据发布数据的句法结构及词汇之间的依存关系,确定所述发布数据的依存关系的类型;分别计算依存关系中主导词和依存词的句法特征,所述句法特征包括总情感值、情感值为零的频度、最大正向情感值、最大负向情感值;将不同情感词典的句法特征进行合并,获得当前发布数据的句法特征;所述情感词典包含情感词语及其正向情感值和负向情感值。
进一步地,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,还包括:
根据所述情感词典以及发布数据中每个词汇的情感值,将发布数据中的词汇划分为全单词组,正向情感值单词组,负向情感值单词组;在所述全单词组中提取最后一个词汇的情感值、所有单个词汇的总情感值、所有两个连续词汇的总情感值、所有不连续词汇的总情感值,以及,情感值不为零的词汇数目,作为所述全单词组的情感词典特征;在所述正向情感值单词组和所述负向情感值单词组中,分别提取情感值绝对值的最大值、所有单个词汇的总情感值,以及,词汇数目,作为所述正向情感值单词组或所述负向情感值单词组对应的情感词典特征;将不同情感词典的各个情感值分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
再进一步地,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,还包括:
根据所述情感词典以及发布数据中每个词汇的词性,将发布数据中的词汇划分为形容词组,名词组,动词组和代词组;对每个词性分组分别提取正向情感值的最大值,负向情感值的最小值,所有单个词汇的总情感值,以及,情感值不为零的单词数目,作为各个词性分组的情感词典特征;将不同情感词典的各个情感值分组和各个词性分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
本发明实施例提供的基于社交网络数据的情感分析方法,基于社交网络数据文本的特点进行特征提取,大大提高了情感分析模型处理社交网络数据的准确性。本发明通过对社交网络数据进行文本预处理,分析社交网络数据的文本表达特点,提取与用户情感倾向相关的文体特征;并且,进一步借助依存解析器和情感字典,实现社交网络数据的句法特征和情感词典特征的提取;基于线性的支持向量机模型对在训练集中提取的情感分类特征进行训练,从而获得面向社交网络数据特点的情感分析分类器,并通过该情感分析分类器对作为分析目标的预测集的情感分类特征进行分析,从而预测出当前目标用户所发布的社交网络数据的情感倾向,提高预测的准确性。
附图说明
图1是本发明提供的基于社交网络数据的情感分析方法的一个实施例的步骤流程图。
图2是本发明提供的对社交网络数据进行文本预处理的一种可实现方式的步骤流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
参见图1,是本发明提供的基于社交网络数据的情感分析方法的一个实施例的步骤流程图。
具体地,所述的基于社交网络数据的情感分析方法主要包括两大主要过程:首先,训练过程,即基于支持向量机模型对用户发布的社交网络数据(简称“发布数据”)进行特征训练;第二,预测过程,即根据训练过程所获得的情感分析分类器对当前的目标社交网络数据进行情感预测。
本实施例提供的基于社交网络数据的情感分析方法,主要包括以下步骤:
步骤S1:根据用户序列号(ID),通过API(Application Programming Interface,应用程序编程接口)接口并使用Python脚本提取用户在社交网络平台上的发布数据;Python作为一种面向对象、直译式的计算机程序语言,支持命令式程序设计、面向对象程序设计、函数式编程、面向侧面的程序设计、泛型编程多种编程范式,适用于处理***管理任务和网络程序编写以及各种高级任务。
步骤S2:利用标注器对所述发布数据进行分词和标注;所述标注包括词性标注和符号标注。例如,对于社交网络平台Twitter,可以采用Twitter NLP(Natural LanguageProcessing,自然语言处理)工具对用户在Twitter平台上所发布的“微博”数据进行分词和词性标注,并对微博的部分特殊数据进行特殊标注,如@,#,表情符号等。
步骤S3:对进行分词和标注后的发布数据进行文本预处理和依存解析,过滤冗余数据,获取句法结构特征和词汇之间的依存关系。文本预处理和依存解析的主要目的是借助表情词典和缩略词词典等外部资源,使得被分词和标注后的用户发布数据被进一步处理成更容易生成分类特征的形式。其中,文本预处理过程有助于提取文体特征,依存解析有助于提取句法特征和情感词典特征。
具体实施时,所述词汇之间的依存关系通过依存类型、主导词(Governor)和依存词(Dependent)进行描述;每个词汇在其所属依存关系中作为主导词或依存词;在本实施例中,所述依存关系包括但不限于:形容词补充(Adjective Complement)、副词修饰(AdverbModifier)、形容词修饰(Adjective Modifier)、名词主语(Nominal Subject)、被动型名词主语(Passive Nominal Subject)中的任意一项。对于每一条用户在社交网络平台上发布的社交网络数据(如微博),无论是单句或是多句的情况,均进行依存解析,并可进一步依据情感词典及其依存关系提取句法特征。
步骤S4:将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集;其中,训练集主要用于生成情感分析分类器;预测集主要用于测试,即分析当前待预测的用户在社交网络平台上的发布数据的情感倾向。
步骤S5:分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取;
步骤S6:采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练,获得情感分析分类器;
步骤S7:采用所述情感分析分类器对所述预测集中的情感分类特征进行分析,预测出用户在社交网络平台上发布的目标数据的情感倾向。
具体实施时,如图1所示,训练集和预测集的社交网络数据的提取过程与特征提取过程之间(步骤S1~步骤S3)所采用的技术手段和工作原理可以是一致的。在本实施例中,对训练集中的用户社交网络数据进行特征训练的目的是获得可以表征社交网络数据特点的特征分类器,以便于在对目标预测集中的发布数据进行情感预测时,获得准确的预测结果。
参看图2,是本发明提供的对社交网络数据进行文本预处理的一种可实现方式的步骤流程图。
在一种可实现的方式中,本实施例的步骤S3在对进行分词和标注后的发布数据进行文本预处理时,具体包括:
步骤S31:对发布数据中无关情感倾向的数据进行过滤;譬如,字符“@”,各种链接,以及非英文词汇等。
步骤S32:对发布数据中的表情符号的感情倾向进行归类和标注;所述感情倾向划分为极其褒义(Extremely Positive),褒义(Positive),中立(Neutral),贬义(Negative)和极其贬义(Extremely Negative)五种类型。社交网络平台的用户发布数据中经常使用表情符号来表达情感倾向,因此,与表情符号相关的分类特征对预测准确度有很大的提升。具体实施时,本实施例根据社交网络平台的表情词典对发布数据中的表情符号的感情倾向进行归类并标注。
进一步地,步骤S3在对进行分词和标注后的发布数据进行文本预处理时,还包括:
步骤S33:对发布数据中的缩略词进行扩展还原,并统计所述缩略词在发布数据中出现的频度;具体实施时,本实施例根据缩略词词典进行缩略词还原,并统计缩略词、俗语等在用户发布的社交网络数据中出现的频度。
步骤S34:对发布数据中的重复字符进行统一化字符替换。譬如,社交网络平台“微博”上发布的社交网络数据中经常出现一长串同样的字母来表达强调语气或情感,对于单个词汇中连续重复出现次数超过3个的字母,统一替换为3个该字母;统一处理后该单词仍然与其正确拼写不一致,以达到区分分类特征的目的。
步骤S35:查找发布数据中的否定词,并标记出所述否定词在发布数据中的位置。具体地,否定文本的标记,包括否定词查找,确定否定文本区间,判断情感倾向变化。其中,本实施例中的“否定文本”或“否定词”的可定义如下:从否定词出现至“,”、“.”、“:”、“;”、“!”、“?”中的其中一个标点符号出现之间的用户发布数据(如“微博”)文本。
在完成文本预处理和依存解析的基础上,对每条用户发布的社交网络数据进行情感分类特征提取,其中,所述情感分类特征包括文体特征,句法特征和情感词典特征,所述步骤S5具体的特征提取实现过程如下:
(1)、提取用于描述发布数据的文体风格及其表达方式的文体特征。在本实施例中,文体特征用于描述社交网络数据的文体风格及其表达方式,包括但不限于全部大写字母组成的单词,含重复多次相同字母的单词,不同词性种类单词的频度,不同特殊标点符号的频度及其位置信息,不同情感倾向表情的频度及其位置信息,否定文本的频度及其在位置信息,强调词的频度及其位置信息。
(2)、提取用于描述发布数据的句法结构及句子词汇之间的关系的句法特征,包括:根据发布数据的句法结构及词汇之间的依存关系,确定所述发布数据的依存关系的类型;分别计算依存关系中主导词和依存词的句法特征,所述句法特征包括总情感值、情感值为零的频度、最大正向情感值、最大负向情感值;将不同情感词典的句法特征进行合并,获得当前发布数据的句法特征;所述情感词典包含情感词语及其正向情感值和负向情感值。具体地,判断不同依存关系是否在发布数据中出现,计算形容词修饰、副词修饰和同位语修饰等依存关系中依存词的总情感值、情感值为“0”的频度、最大正向情感值、最大负向情感值;计算名词主语和被动型名词主语依存关系中主导词的总情感值、情感值为“0”的频度、最大正向情感值、最大负向情感值。对于每个不同的情感词典,分别计算上述句法特征,最终将对应不同情感词典的句法特征合并得到该发布数据的句法特征信息。
(3)、提取用于描述发布数据的情感词汇的情感倾向的情感词典特征,包括:
根据所述情感词典以及发布数据中每个词汇的情感值,将发布数据中的词汇划分为全单词组,正向情感值单词组,负向情感值单词组;在所述全单词组中提取最后一个词汇的情感值、所有单个词汇的总情感值、所有两个连续词汇的总情感值、所有不连续词汇的总情感值,以及,情感值不为零(0)的词汇数目,作为所述全单词组的情感词典特征;在所述正向情感值单词组和所述负向情感值单词组中,分别提取情感值绝对值的最大值、所有单个词汇的总情感值,以及,词汇数目,作为所述正向情感值单词组或所述负向情感值单词组对应的情感词典特征;将不同情感词典的各个情感值分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
进一步地,对情感词典特征进行提取时,还包括:
根据所述情感词典以及发布数据中每个词汇的词性,将发布数据中的词汇划分为形容词组,名词组,动词组和代词组;对每个词性分组分别提取正向情感值的最大值,负向情感值的最小值,所有单个词汇的总情感值,以及,情感值不为零(0)的单词数目,作为各个词性分组的情感词典特征;将不同情感词典的各个情感值分组和各个词性分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
最后,通过所述步骤S6训练获得情感分析分类器对预测集中的情感分类特征进行分析,预测出用户在社交网络平台上发布的目标数据的情感倾向。
在本实施例的步骤S6进行特征训练时,其具体包括:利用所述线性支持向量机模型,将训练集的样本空间映射到一个高维特征空间,并在所述高维特征空间上构建全局最优的分割超平面,生成情感分析分类器;为所述线性支持向量机模型设定对离群点的惩罚因子C,以权衡样本点与模型之间的拟合。优选地,所述对离群点的惩罚因子C的值为0.005。
预测过程与训练过程相似,每条用户发布的“微博”数据(社交网络数据的一种)经过文本预处理与依存解析后,分别提取文体特征、句法特征和情感词典特征。两者的主要区别是,在预测过程中,通过上述训练过程中已训练完毕的情感分析分类器,根据当前社交网络数据的分类特征预测其情感倾向。
本发明实施例采用标注器、表情词典、缩略词词典等工具进行社交网络数据的文本预处理,考虑表情符号、缩略词、含有重复多个相同字母的词汇、特殊标点符号、否定文本等多种情况,并在此基础上提取社交网络数据的文体特征;并进一步依据词汇之间的关系和句子结构特征,利用依存解析器分析社交网络数据文本词汇间的依存关系,并根据依存类型判断主导词或依存词对语句情感倾向的影响,结合词汇情感值信息形成社交网络数据的句法特征,克服了现有情感分析模型仅适用于正式文本,无法处理类似“微博”这种简短、带有较多表情符号、拼写错误且句法结构模糊的社交网络数据的缺陷。
本发明实施例提供的基于社交网络数据的情感分析方法,基于社交网络数据文本的特点进行特征提取,大大提高了情感分析模型处理社交网络数据的准确性。本发明通过对社交网络数据进行文本预处理,分析社交网络数据的文本表达特点,提取与用户情感倾向相关的文体特征;并且,进一步借助依存解析器和情感字典,实现社交网络数据的句法特征和情感词典特征的提取;基于线性的支持向量机模型对在训练集中提取的情感分类特征进行训练,从而获得面向社交网络数据特点的情感分析分类器,并通过该情感分析分类器对作为分析目标的预测集的情感分类特征进行分析,从而预测出当前目标用户所发布的社交网络数据的情感倾向,提高预测的准确性。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
Claims (9)
1.一种基于社交网络数据的情感分析方法,其特征在于,包括:
根据用户序列号,通过API接口并使用Python脚本提取用户在社交网络平台上的发布数据;
利用标注器对所述发布数据进行分词和标注;所述标注包括词性标注和符号标注;
对进行分词和标注后的发布数据进行文本预处理和依存解析,过滤冗余数据,获取句法结构特征和词汇之间的依存关系;
将进行了文本预处理和依存解析后的发布数据划分为训练集和预测集;
分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取;其中,所述情感分类特征包括文体特征、句法特征和情感词典特征;
采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练,获得情感分析分类器;
采用所述情感分析分类器对所述预测集中的情感分类特征进行分析,预测出用户在社交网络平台上发布的目标数据的情感倾向;
其中,发布数据的情感词典特征通过以下步骤提取:
根据情感词典以及发布数据中每个词汇的情感值,将发布数据中的词汇划分为全单词组,正向情感值单词组,负向情感值单词组;其中,所述情感词典包含情感词语及其正向情感值和负向情感值;
在所述全单词组中提取最后一个词汇的情感值、所有单个词汇的总情感值、所有两个连续词汇的总情感值、所有不连续词汇的总情感值,以及情感值不为零的词汇数目,作为所述全单词组的情感词典特征;
在所述正向情感值单词组和所述负向情感值单词组中,分别提取情感值绝对值的最大值、所有单个词汇的总情感值,以及词汇数目,作为所述正向情感值单词组或所述负向情感值单词组对应的情感词典特征;
将不同情感词典的各个情感值分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
2.如权利要求1所述的基于社交网络数据的情感分析方法,其特征在于,所述对进行分词和标注后的发布数据进行文本预处理,包括:
对发布数据中无关情感倾向的数据进行过滤;
对发布数据中的表情符号的感情倾向进行归类和标注;所述感情倾向划分为极其褒义,褒义,中立,贬义和极其贬义五种类型。
3.如权利要求2所述的基于社交网络数据的情感分析方法,其特征在于,所述对进行分词和标注后的发布数据进行文本预处理,还包括:
对发布数据中的缩略词进行扩展还原,并统计所述缩略词在发布数据中出现的频度;
对发布数据中的重复字符进行统一化字符替换;以及,
查找发布数据中的否定词,并标记出所述否定词在发布数据中的位置。
4.如权利要求1所述的基于社交网络数据的情感分析方法,其特征在于,所述采用线性支持向量机模型对在所述训练集上提取的情感分类特征进行训练,获得情感分析分类器,包括:
利用所述线性支持向量机模型,将训练集的样本空间映射到一个高维特征空间,并在所述高维特征空间上构建全局最优的分割超平面,生成情感分析分类器;
为所述线性支持向量机模型设定对离群点的惩罚因子,以权衡样本点与模型之间的拟合。
5.如权利要求4所述的基于社交网络数据的情感分析方法,其特征在于,所述对离群点的惩罚因子的值为0.005。
6.如权利要求1所述的基于社交网络数据的情感分析方法,其特征在于,所述词汇之间的依存关系通过依存类型、主导词和依存词进行描述;每个词汇在其所属依存关系中作为主导词或依存词;
所述依存关系包括:形容词补充、副词修饰、形容词修饰、名词主语、被动型名词主语中的任意一项。
7.如权利要求6所述的基于社交网络数据的情感分析方法,其特征在于,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,包括:
提取用于描述发布数据的文体风格及其表达方式的文体特征。
8.如权利要求7所述的基于社交网络数据的情感分析方法,其特征在于,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,还包括:
根据发布数据的句法结构及词汇之间的依存关系,确定所述发布数据的依存关系的类型;
分别计算依存关系中主导词和依存词的句法特征,所述句法特征包括总情感值、情感值为零的频度、最大正向情感值、最大负向情感值;
将不同情感词典的句法特征进行合并,获得当前发布数据的句法特征;所述情感词典包含情感词语及其正向情感值和负向情感值。
9.如权利要求8所述的基于社交网络数据的情感分析方法,其特征在于,所述分别对所述训练集或所述预测集的每一条发布数据进行情感分类特征提取,还包括:
根据所述情感词典以及发布数据中每个词汇的词性,将发布数据中的词汇划分为形容词组,名词组,动词组和代词组;
对每个词性分组分别提取正向情感值的最大值,负向情感值的最小值,所有单个词汇的总情感值,以及情感值不为零的单词数目,作为各个词性分组的情感词典特征;
将不同情感词典的各个情感值分组和各个词性分组的情感词典特征进行合并,获得当前发布数据的情感词典特征。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610475678.4A CN106096664B (zh) | 2016-06-23 | 2016-06-23 | 一种基于社交网络数据的情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610475678.4A CN106096664B (zh) | 2016-06-23 | 2016-06-23 | 一种基于社交网络数据的情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106096664A CN106096664A (zh) | 2016-11-09 |
CN106096664B true CN106096664B (zh) | 2019-09-20 |
Family
ID=57252774
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610475678.4A Active CN106096664B (zh) | 2016-06-23 | 2016-06-23 | 一种基于社交网络数据的情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106096664B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10073830B2 (en) * | 2014-01-10 | 2018-09-11 | Cluep Inc. | Systems, devices, and methods for automatic detection of feelings in text |
CN108090094A (zh) * | 2016-11-23 | 2018-05-29 | 北京国双科技有限公司 | 一种文本信息分类方法及*** |
CN106547924A (zh) * | 2016-12-09 | 2017-03-29 | 东软集团股份有限公司 | 文本信息的情感分析方法及装置 |
CN106997562B (zh) * | 2017-03-22 | 2021-03-26 | 扬州大学 | 带符号网络的顶点分类的映射方法 |
CN107102984A (zh) * | 2017-04-21 | 2017-08-29 | 中央民族大学 | 一种藏语微博情感倾向性分析方法和*** |
CN107341270B (zh) * | 2017-07-28 | 2020-07-03 | 东北大学 | 面向社交平台的用户情感影响力分析方法 |
CN108108468A (zh) * | 2017-12-29 | 2018-06-01 | 华中科技大学鄂州工业技术研究院 | 一种基于概念和文本情感的短文本情感分析方法和装置 |
US10860858B2 (en) * | 2018-06-15 | 2020-12-08 | Adobe Inc. | Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices |
CN109036554B (zh) * | 2018-08-07 | 2020-02-14 | 百度在线网络技术(北京)有限公司 | 用于生成信息的方法和装置 |
CN109284376A (zh) * | 2018-09-10 | 2019-01-29 | 成都信息工程大学 | 基于领域自适应的跨领域新闻数据情感分析方法 |
CN110046223B (zh) * | 2019-03-13 | 2021-05-18 | 重庆邮电大学 | 基于改进型卷积神经网络模型的影评情感分析方法 |
CN110825876B (zh) * | 2019-11-07 | 2022-07-15 | 上海德拓信息技术股份有限公司 | 电影评论观点情感倾向性分析方法 |
CN113157858A (zh) * | 2021-03-25 | 2021-07-23 | 上海柏观数据科技有限公司 | 一种基于情感词匹配与频度结合的情感程度检测方法 |
CN112988973A (zh) * | 2021-03-25 | 2021-06-18 | 上海柏观数据科技有限公司 | 一种基于情感词匹配的人才情感倾向检测方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901212A (zh) * | 2010-07-23 | 2010-12-01 | 北京航空航天大学 | 一种基于认知评价理论的汉语文本情感识别方法 |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103729456A (zh) * | 2014-01-07 | 2014-04-16 | 合肥工业大学 | 一种基于微博群环境的微博多模态情感分析方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
US9141600B2 (en) * | 2012-07-12 | 2015-09-22 | Insite Innovations And Properties B.V. | Computer arrangement for and computer implemented method of detecting polarity in a message |
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
-
2016
- 2016-06-23 CN CN201610475678.4A patent/CN106096664B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101901212A (zh) * | 2010-07-23 | 2010-12-01 | 北京航空航天大学 | 一种基于认知评价理论的汉语文本情感识别方法 |
US9141600B2 (en) * | 2012-07-12 | 2015-09-22 | Insite Innovations And Properties B.V. | Computer arrangement for and computer implemented method of detecting polarity in a message |
CN103593431A (zh) * | 2013-11-11 | 2014-02-19 | 北京锐安科技有限公司 | 网络舆情分析方法和装置 |
CN103729456A (zh) * | 2014-01-07 | 2014-04-16 | 合肥工业大学 | 一种基于微博群环境的微博多模态情感分析方法 |
CN104281645A (zh) * | 2014-08-27 | 2015-01-14 | 北京理工大学 | 一种基于词汇语义和句法依存的情感关键句识别方法 |
CN105069021A (zh) * | 2015-07-15 | 2015-11-18 | 广东石油化工学院 | 基于领域的中文短文本情感分类方法 |
Non-Patent Citations (2)
Title |
---|
基于SVM的微博情感倾向性分析研究;李可可;《中国优秀硕士学位论文全文数据库 信息科技辑》;20150415;正文第26页第15行-第30页第4行 * |
基于渐进直推时支持向量机的Twitter文本情感分析研究;鲍艳伟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20160515;正文第21页第7-11行,第31页第15行-第32页第1行 * |
Also Published As
Publication number | Publication date |
---|---|
CN106096664A (zh) | 2016-11-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106096664B (zh) | 一种基于社交网络数据的情感分析方法 | |
Laboreiro et al. | Tokenizing micro-blogging messages using a text classification approach | |
CN106919673A (zh) | 基于深度学习的文本情绪分析*** | |
CN104008091A (zh) | 一种基于情感值的网络文本情感分析方法 | |
Syed et al. | Associating targets with SentiUnits: a step forward in sentiment analysis of Urdu text | |
CN106844348B (zh) | 一种汉语句子功能成分分析方法 | |
Richter et al. | Korektor–a system for contextual spell-checking and diacritics completion | |
Jayan et al. | A hybrid statistical approach for named entity recognition for malayalam language | |
CN106055633A (zh) | 一种中文微博主客观句分类方法 | |
Elfajr et al. | Sentiment analysis using weighted emoticons and SentiWordNet for Indonesian language | |
CN111339772A (zh) | 俄语文本情感分析方法、电子设备和存储介质 | |
Čibej et al. | Normalisation, tokenisation and sentence segmentation of Slovene tweets | |
Ovi et al. | BaNeP: An End-to-End Neural Network Based Model for Bangla Parts-of-Speech Tagging | |
Hládek et al. | Online natural language processing of the Slovak language | |
CN104281695B (zh) | 基于组合理论的类自然语言的语义信息抽取方法及其*** | |
Lee et al. | Korean-specific emotion annotation procedure using N-gram-based distant supervision and Korean-specific-feature-based distant supervision | |
Fenogenova et al. | A general method applicable to the search for anglicisms in russian social network texts | |
Amin et al. | Kurdish Language Sentiment Analysis: Problems and Challenges | |
Naemi et al. | Informal-to-formal word conversion for persian language using natural language processing techniques | |
Alfaidi et al. | Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets. | |
Ehsan et al. | Statistical Parser for Urdu | |
CN107168950A (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
Khoufi et al. | Chunking Arabic texts using conditional random fields | |
JP5506482B2 (ja) | 固有表現抽出装置、文字列−固有表現クラス対データベース作成装置、固有表現抽出方法、文字列−固有表現クラス対データベース作成方法、プログラム | |
Estarrona et al. | Dealing with dialectal variation in the construction of the Basque historical corpus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20191028 Address after: Room 1007, Sanhang technology building, Gaoxin South 9th Road, Nanshan District, Shenzhen City, Guangdong Province Patentee after: Cloud number information technology (Shenzhen) Co., Ltd. Address before: 510000, Guangzhou, Guangdong, Nansha District, No. 2 South Avenue, Guangzhou Information Technology Park Co., Ltd. North building software incubator North 2002 room Patentee before: Guangzhou cloud number Mdt InfoTech Ltd |
|
TR01 | Transfer of patent right |