CN105335352A - 基于微博情感的实体识别方法 - Google Patents

基于微博情感的实体识别方法 Download PDF

Info

Publication number
CN105335352A
CN105335352A CN201510864383.1A CN201510864383A CN105335352A CN 105335352 A CN105335352 A CN 105335352A CN 201510864383 A CN201510864383 A CN 201510864383A CN 105335352 A CN105335352 A CN 105335352A
Authority
CN
China
Prior art keywords
emotion
machine learning
word
entity
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510864383.1A
Other languages
English (en)
Inventor
崔晓辉
朱卫平
张威风
杨威
王志波
李伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201510864383.1A priority Critical patent/CN105335352A/zh
Publication of CN105335352A publication Critical patent/CN105335352A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于微博情感的实体识别技术,使用api采集技术获取微博数据,并进行预处理;包括使用Circumplex环形情感模型作为情感分析模型,产生四类情感关键词词典;使用API采集技术获取微博数据,对数据进行预处理和向量化数据集,使用四种机器学习算法进行学习和训练,并且进行五重交叉验证,使用挑选最优机器学习分类程序对新的数据集进行分类;最后对分类完成的数据进行实体的抽取。

Description

基于微博情感的实体识别方法
技术领域
本发明涉及到网络中大数据的采集与分析领域,具体涉及一种基于微博情感的实体识别方法。
技术背景
在国内,由于微博是近几年才发展起来的新型社交媒体平台,所以国内针对微博短文本的情感分析研究起步较晚。比较早的研究是叶强、张紫琼和罗振雄三位学者建立在普遍使用的N-POS语言模型的基础上进行中文词组的特征提取,提出了中文双词主观词组模型2-POS,为汉字文本内容的情感识别垫定基础。在此之后,徐军用朴素贝叶斯以及最大熵等机器学习的方法来进行文本情感挖掘分类,其研究结果表明,在基于情感的中文文本内容分类中利用机器学习方法可以取得比较满意的效果,准确率可以达到90%以上。对于电影评论,胡熠应用N-Gram语言模型、朴素贝叶斯分类方法和支持向量机(SVM)进行情感分类研究,发现在文本训练样本有限不足的情况下,N-Gram语言模型的分类准确率更高,而且具有良好的扩展性。在这些研究的基础上,基于情感的文本挖掘的研究不断增加,相关研究领域得到扩展,如庞磊等学者通过朴素贝叶斯、SVM和最大熵三种分类方法,对新浪微博中的股票评论内容进行看涨和看跌的正负态度分类。傅向华、孙先和冯时通过不同的角度对中文博客进行情感分析研究,并提出一种基于文档主题生成模型与知网词典的中文博客多方面话题情感挖掘方法;将基于词典统计的情感分析方法引入微博情感分析;提出一种基于句法依存分析技术的算法SOAD(sentimentorientationanalysisbasedonsyntacticdependency)对博文搜索结果进行情感倾向性分析。
总体而言,随着互联网的不断发展,近年来,国外很多学者开始在更加广泛的领域进行情感挖掘研究,包括旅游博客、法律博客、影视评论等。情感挖掘旨在根据特殊的分类方法从消费者对特定产品或者服务的评论中提取积极或者消极的态度,利用情感分类的结果,消费者可以了解到做出购买决策的必要信息,商家可以获悉用户的反应以及其竞争者的表现。随着计算机技术的广泛使用,评论内容的情感挖掘已经成为近来研究的趋势,广泛应用于各个领域。
命名实体识别,同时也被称之为实体识别或者Named-Entity-Recognition,是指在一串文本中具有特定意义的实体,主要是指人名、地名、机构名、专有名词等。近些年来,随着计算机信息检索技术以及搜索引擎技术得到了极速的发展,基于中文的命名实体识别技术已经成为自然语言处理研究界的热点课题,根据国内的研究现状,目前基于中文的命名实体识别的技术方法主要有以下四种:基于统计的识别方法、基于规则的识别方法、规则和统计相结合的识别方法、基于机器学习的识别方法。
(1)基于统计的方法
中文的命名实体识别采用的统计模型主要有:隐马尔科夫模型、决策树模型、支持向量机模型、最大熵模型和条件随机场模型。Asahara通过采用支持向量机的方法对中国的人名及组织机构的进行了自动识别,取得了比较好的结果。
(2)基于规则的方法
基于规则的命名实体识别技术主要是利用两种信息:限制性成分和命名实体用词。Tan采取的是基于转换错误驱动的方法从而获取命名实体地名的上下文的联系规则,然后使用这些规则实现对中文地名的自动识别,经过一定的数据测试表明,该识别方法的准确率可以达到97%。
(3)规则与统计相结合的方法
目前主流的一些中文命名实体自动识别***将规则以及统计相结合起来,它先采用统计学的方法对实体进行镜像识别,然后利用规则对其进行校正过滤。黄德根利用从大量的真实文本数据中得到的大量的统计数据,并计算出每个人名的持续构词可信度和构词可信度,然后结合一定的规则对中国人名进行自动识别。
(4)基于机器学习的方法
在英文中的命名实体识别技术比中文的命名实体识别技术要简单很多,因为英文没有分词带来的麻烦,而中文的分词准确率是影响中文命名实体识别技术的关键因素。英文里的命名实体识别技术已经比较成熟,利用支持向量机的机器学习方法对英文单词进行分类,可以达到99%以上的地名和人名识别准确率。
微博作为一种社交网站的主要媒体形式,越来越受到人们的青睐。人们倾向于从微博上获取新闻、评论、娱乐等信息,不知不觉间,微博对网络舆情传播的影响越来越严重。微博信息中包含不同趋向的情感特征,挖掘这些特征对于舆情监控、市场营销、谣言控制都有重要意义。大多数的情感分析都只是把文本情感分成正中负3类,如果直接将这种粗粒度的情感分析应用到微博这个社交媒体,对人们的理解帮助有限,不足以达到真正的聆听社会脉动,倾听社会情感的目的。
发明内容
针对现有技术的不足,本发明设计出了一种基于微博情感的实体分析技术,本发明识别精度高,处理速度快,适用于大规模数据的精确识别。
为实现上述目的,本发明采用了如下的技术方案,一种基于微博情感的实体识别方法,包括以下几个步骤:
步骤1.训练阶段,选取最优机器学习算法;
步骤1.1根据Circumplex环形情感模型,构造四类情感词词典;
所述的四类情感词词典映射到一个二维坐标系之中,这四个维度的坐标轴分别是:快乐并活跃,快乐但不活跃,不快乐但活跃和不快乐不活跃;
步骤1.2使用网络API采集技术,以四类情感词为关键词从微博上获取微博数据,作为训练数据。
步骤1.3对采集到的训练数据进行预处理,生成规范的训练数据集;
步骤1.4对训练数据提取关键字,依据向量空间模型对训练数据集进行向量化;
将标点符号和表情符号同样作为一个标识进行向量化,可以更加有效和贴切的对文本的情感进行分析。标点符号和表情符号的向量化是将表情符号和标点符号替换成相应的英文单词,然后再进行单词向量化的,例如:笑脸替换为happy,happy的词向量(1,0,0,1,1,2)。
步骤1.5依据预设的机器学习算法,分别对向量化的训练数据集进行情感分类和5重交叉验证;
步骤1.6计算每个机器学***均值最高的机器学习算法作为最优机器学习分类算法。
步骤2.实验阶段,根据步骤1得到的最优机器学习分类算法,得到被识别的情感实体。
步骤2.1按照步骤1中步骤1.1至步骤1.4相同的方法获取向量化的实验数据集;
步骤2.2使用步骤1中的得到的最优机器学习分类算法,对实验数据集进行分类,得到四类情感数据集;
步骤2.3对四类情感数据集分别进行一次实体抽取,得到被识别的情感实体。
进一步的,所述的步骤1.3中的预处理,包括修正错误词组、删除无关词组、修正错误词组、删除歧义的微博和同义词转换;所述的修正错误词组是指对拼写错误的单词进行修正;删除无关词组指对情感分析没有任何益处的单词进行删除;删除歧义的微博指在一个文本却属于不同的情感类别的微博;同义词转换是指把相同意思的词用另一个词代替。
优选的,所述的步骤1.4中使用TF-IDF算法提取关键词,如果包含表情和标点符号,则将常用的表情符号和表示语气的标点符号转化为相应的单词。
优选的,所述的步骤1.4中使用word2vec开源工具构建词向量,依据向量空间模型对训练数据集进行向量化。
优选的,所述的步骤2.3中,使用SENNA深度学习工具包,对四类情感数据集分别进行一次实体抽取。
优选的,所述的步骤1.5中,预设的机器学习算法包括朴素贝叶斯、逻辑回归、支持向量机和K近邻算法4种机器学习算法。
本发明通过机器深度学习进行分类和实体识别,对微博的情感进行更加细粒度的实体识别,识别的精确度高,效果好。会产生如下的益处:
1.将数据处理和分析后可以进行更加细的粒度的情感分析;
2.通过获得的细粒度情感分析,可以反应人们对微博这个群体的情绪状况;
3.有利于政府,组织,个体对社会情感的理解和把握。
附图说明
图1是本发明的流程图;
具体实施方式
为使本发明的技术手段,创作特征,达成目的与功效易于明白了解,下面结合具体实施方式,进一步阐述本发明。
微博中的数据很大,依靠人工的方法对其进行分类,将花费大量的人力物力财力,因此使用微博中提供的Hashtag主题标签作为该微博的情感。我们认为若一个微博被该情感类别标签标记,则该微博属于这个情感类别。
一种基于微博情感的实体识别方法,包括以下几个步骤:
步骤1.训练阶段,选取最优机器学习算法;
步骤1.1根据Circumplex环形情感模型,构造四类情感词词典;所述的四类情感词词典映射到一个二维坐标系之中,这四个维度的坐标轴分别是:快乐并活跃,快乐但不活跃,不快乐但活跃和不快乐不活跃;
步骤1.2使用网络API采集技术,以四类情感词为关键词从微博上获取微博数据,作为训练数据。
步骤1.3对采集到的训练数据进行预处理,生成规范的训练数据集;对数据的预处理包括:修正错误词组,删除无关词组,删除歧义数据,同义词转换。
修正错误词组是指对拼写错误的单词进行修正,例如:eta修正为eat,删除无关词组指那些对情感分析没有任何益处的单词进行删除,例如the,of等无实际意义的单词,删除歧义的微博指那些一个文本却属于不同的情感类别的微博。同义词转换是指把相同意思的词用一个词代替。
步骤1.4对训练数据提取关键字,使用TF-IDF算法提取关键词,如果包含表情和标点符号,则将常用的表情符号和表示语气的标点符号转化为相应的单词。
使用word2vec开源工具构建词向量,依据向量空间模型对训练数据集进行向量化;所述的向量化过程中不仅包括文字,还包括标点符号和表情符号。
向量空间模型是经典的文本特征模型,由Salton等人在60年代提出,并且在SMART文本检索***上已经取得了成功的应用。
构建词向量:词向量是指用一个向量来代表一个词,例如:happy可以用向量(0,1,3,4,1,1)来表示。
Word2vec是Goole在2013年中开源的一款将词表征为实数值向量的高效工具。我们使用此工具将每个词用向量来表示。
数据集的向量化:对每一条数据提取关键词,这里使用的是比较成熟TF-IDF算法生成的一组关键词,然后把关键词转化为词向量。用这一组词向量代表这一条数据。例如:Iwanttogohome这条数据,可以提取出关键词:I,go,home三个关键词,三个关键词的词向量为(1,0,1,0,1,3),(0,1,2,3,0,0),(1,1,3,2,1,6)那么可以用这三个向量代表此条数据。
步骤1.5依据预设的机器学习算法,分别对向量化的训练数据集进行情感分类和5重交叉验证;
5重交叉验证:将得到的数据集随机分为5等份,将其中4等份作为训练集,1等份作为测试集,使用训练集对机器学习算法进行训练,训练完成之后,机器学习算法会生成一个决策树函数,并用决策树函数对剩下的测试集进行测试。并计算分类的准确率和召回率。该过程重复5次。
本方法预设4种四种机器学习算法,使用了以下的机器学习算法:
1.朴素贝叶斯
朴素贝叶斯的基本原理是:对于一个给定的等待分类的数据项,需要求出在此数据项出现的基础上其它各个类别分别出现的概率,该概率通常被称之为后验概率,哪个最大,就认为此待数据项属于哪一个目标类别。
公式如下:
p ( C k | x ) = p ( C k ) p ( x | C k ) p ( x )
公式描述:事件Ck的概率为P(Ck),事件x的概率为P(x),事件Ck已发生条件下事件x的概率为P(A|Ck),事件x发生条件下Ck的发生概率为P(Ck|x)
程序逻辑如下:Ck表示类别,P(x)表示待分类数据,对于确定的分类数目,P(Ck)是固定的,例如这里的概率是0.25(1/4),对于一次数据分类,P(x)也是确定的,所以只需要计算出P(x|Ck)最大,便可得出P(Ck|x)最大。P(x|Ck)表示Ck类中出现x的概率,该概率在训练集中得到,例如:在训练集分类过程中,Ck中共有100个,x占有10个,则概率为0.1。
2.逻辑回归
逻辑回归与众多回归分析以及多重线性回归有一些类似之处,这些回归模型都属于广义线性模型的(generalizedlinearmodel)。对于广义线性模型家族成员中,各个回归分析的不同更多的是因变量的不同。构造逻辑回归的时候需要以下关键步骤:
①建立预测函数,预测函数是指某一件事情的发生概率为多大。
②构造逻辑函数,逻辑函数是指Sigmoid函数,由于预测函数是根据原有的训练数据得到的近似概率函数,所以该概率函数的取值范围有可能出现小于0的情况,因此就引入了逻辑函数的概念,逻辑函数能把负无穷大到正无穷大的数映射到[0,1]之间。
③使用低度下降的方法求得回归参数,逻辑回归分类器的训练阶段,根据构建好的逻辑函数形式,我们可以得到该函数的似然函数,同时在求参数的过程中,通常采用的方法是最大似然法,然后再利用梯度下降法求得在参数的最佳值。
程序逻辑如下:把数据集的特征值设为X1,X2,X3……,对应的权值为W1,W2,W3……,设Z=W1×X1+W2×X2+W3×X3……,然后使用sigmoid函数将结果映射到[0,1]区间上,p=sigmoid(z),即1/(1+exp(-z)),然后使用梯度下降法和测试数据,求出各个权值的最大似然值。得到各个权值后,便可以得到此函数的表达式,便可以计算出各个类的可能性,对新的数据进行分类。
3.支持向量机
支持向量机是一种监督性的学***面对一些低维度不可分数据在高维度可分。在文本分类中,支持向量机是最好的分类算法之一。
程序逻辑如下:训练支持向量机的主要目的是找出分割两类的超平面方程,设方程函数为WTX+b=0,W和X分表代表一个矩阵和向量,这里的X表示词向量,引入松弛因子和惩罚因子,使用拉格朗日乘子法,求出最优的分类平面,求出平面函数,便可以对其他的向量X进行分类。
4.K近邻算法
K邻近算法,是机器学习算法中里非常成熟的算法之一,同时K邻近算法也是最简单的机器学习算法之一。邻近算法的基本思想是在给定的一些数据内容中,如果一个样本数据在特征向量空间中与其它最相邻的K个数据点种的大多数属于同一个类别,那么就把这个样本赋值该类别。
程序逻辑如下:在训练集中,将训练向量投射到N维空间中,新数据向量X,计算与X最近的n个点,在这n个点中,若A类别的最多,则该新数据属于A类别。
步骤1.6计算每个机器学***均值最高的机器学习算法作为最优机器学习分类算法。
步骤2.实验阶段,根据步骤1得到的最优机器学习分类算法,得到被识别的情感实体。
步骤2.1按照步骤1中步骤1.1至步骤1.4相同的方法获取向量化的实验数据集;
步骤2.2使用步骤1中的得到的最优机器学习分类算法,对实验数据集进行分类,得到四类情感数据集;
步骤2.3使用SENNA深度学习工具包,对四类情感数据集分别进行一次实体抽取。
以上为本发明的基本原理和主要实现方法。本发明可以实现微博内容的提取,对大数据的深度学习,提高情感的分析精度,对微博情感实体的识别。帮助政府,组织或机构进行大众群体的情感研究,在舆论分析,***,事件预警方面有较大的作用。

Claims (6)

1.一种基于微博情感的实体识别方法,其特征在于,包括以下几个步骤:
步骤1.训练阶段,选取最优机器学习算法;
步骤1.1根据Circumplex环形情感模型,构造四类情感词词典;所述的四类情感词词典映射到一个二维坐标系之中,这四个维度的坐标轴分别是:快乐并活跃,快乐但不活跃,不快乐但活跃和不快乐不活跃;
步骤1.2使用网络API采集技术,以四类情感词为关键词从微博上获取微博数据,作为训练数据;
步骤1.3对采集到的训练数据进行预处理,生成规范的训练数据集;
步骤1.4对训练数据提取关键字,依据向量空间模型对训练数据集进行向量化;
步骤1.5依据预设的机器学习算法,分别对向量化的训练数据集进行情感分类和5重交叉验证;
步骤1.6计算每个机器学***均值最高的机器学习算法作为最优机器学习分类算法;
步骤2.实验阶段,根据步骤1得到的最优机器学习分类算法,得到被识别的情感实体;
步骤2.1按照步骤1中步骤1.1至步骤1.4相同的方法获取向量化的实验数据集;
步骤2.2使用步骤1中的得到的最优机器学习分类算法,对实验数据集进行分类,得到四类情感数据集;
步骤2.3对四类情感数据集分别进行一次实体抽取,得到被识别的情感实体。
2.根据权利要求1所述的一种基于微博情感的实体识别方法,其特征在于,所述的步骤1.3中的预处理,包括修正错误词组、删除无关词组、修正错误词组、删除歧义的微博和同义词转换;所述的修正错误词组是指对拼写错误的单词进行修正;删除无关词组指对情感分析没有任何益处的单词进行删除;删除歧义的微博指在一个文本却属于不同的情感类别的微博;同义词转换是指把相同意思的词用另一个词代替。
3.根据权利要求1所述的一种基于微博情感的实体识别方法,其特征在于,所述的步骤1.4中使用TF-IDF算法提取关键词,如果包含表情和标点符号,则将常用的表情符号和表示语气的标点符号转化为相应的单词。
4.根据权利要求1所述的一种基于微博情感的实体识别方法,其特征在于,所述的步骤1.4中使用word2vec开源工具构建词向量,依据向量空间模型对训练数据集进行向量化。
5.根据权利要求1所述的一种基于微博情感的实体识别方法,其特征在于,所述的步骤2.3中,使用SENNA深度学习工具包,对四类情感数据集分别进行一次实体抽取。
6.根据权利要求1所述的一种基于微博情感的实体识别方法,其特征在于,所述的步骤1.5中,预设的机器学习算法包括朴素贝叶斯、逻辑回归、支持向量机和K近邻算法4种机器学习算法。
CN201510864383.1A 2015-11-30 2015-11-30 基于微博情感的实体识别方法 Pending CN105335352A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510864383.1A CN105335352A (zh) 2015-11-30 2015-11-30 基于微博情感的实体识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510864383.1A CN105335352A (zh) 2015-11-30 2015-11-30 基于微博情感的实体识别方法

Publications (1)

Publication Number Publication Date
CN105335352A true CN105335352A (zh) 2016-02-17

Family

ID=55285897

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510864383.1A Pending CN105335352A (zh) 2015-11-30 2015-11-30 基于微博情感的实体识别方法

Country Status (1)

Country Link
CN (1) CN105335352A (zh)

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809186A (zh) * 2016-02-25 2016-07-27 中国科学院声学研究所 情感分类的方法及***
CN105844176A (zh) * 2016-03-23 2016-08-10 上海上讯信息技术股份有限公司 安全策略生成方法及设备
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及***
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机***有限公司 词向量的文本分类方法及终端设备
CN106776566A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 情感词汇的识别方法及装置
CN106776539A (zh) * 2016-11-09 2017-05-31 武汉泰迪智慧科技有限公司 一种多维度短文本特征提取方法及***
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN108710620A (zh) * 2018-01-18 2018-10-26 郝宁宁 一种基于用户的k-最近邻算法的图书推荐方法与***
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析***
CN109739494A (zh) * 2018-12-10 2019-05-10 复旦大学 一种基于Tree-LSTM的API使用代码生成式推荐方法
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109885833A (zh) * 2019-02-18 2019-06-14 山东科技大学 一种基于多域数据集联合嵌入的性感极性检测方法
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
US10489510B2 (en) 2017-04-20 2019-11-26 Ford Motor Company Sentiment analysis of product reviews from social media
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN110866087A (zh) * 2019-08-12 2020-03-06 上海大学 一种基于主题模型的面向实体的文本情感分析方法
WO2020244073A1 (zh) * 2019-06-06 2020-12-10 平安科技(深圳)有限公司 基于语音的用户分类方法、装置、计算机设备及存储介质
CN112183067A (zh) * 2020-09-23 2021-01-05 夏一雪 一种大数据环境下网络舆情人工智能分析***
CN113361585A (zh) * 2021-06-02 2021-09-07 浪潮软件科技有限公司 一种基于有监督学习算法优化筛选线索的方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110231347A1 (en) * 2010-03-16 2011-09-22 Microsoft Corporation Named Entity Recognition in Query
CN103995803A (zh) * 2014-04-25 2014-08-20 西北工业大学 一种细粒度文本情感分析方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LEON DERCZYNSKI ET AL.: "Analysis of named entity recognition and linking for tweets", 《INFORMATION PROCESSING AND MANAGEMENT》 *
MARYAM HASAN ET AL.: "EMOTEX: Detecting Emotions in Twitter Messages", 《2014 ASE BIGDATA/SOCIALCOM/CYBERSECURITY CONFERENCE》 *
廖祥文 等: "第三届中文倾向性分析评测(COAE2011)语料的构建与分析", 《中文信息学报》 *

Cited By (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809186A (zh) * 2016-02-25 2016-07-27 中国科学院声学研究所 情感分类的方法及***
CN105844176A (zh) * 2016-03-23 2016-08-10 上海上讯信息技术股份有限公司 安全策略生成方法及设备
CN105912576A (zh) * 2016-03-31 2016-08-31 北京外国语大学 情感分类方法及***
CN105868185A (zh) * 2016-05-16 2016-08-17 南京邮电大学 一种购物评论情感分析中基于词性标注的词典构建方法
CN106056154A (zh) * 2016-05-27 2016-10-26 大连楼兰科技股份有限公司 故障码识别和分类的方法
CN106294684A (zh) * 2016-08-06 2017-01-04 上海高欣计算机***有限公司 词向量的文本分类方法及终端设备
CN106776539A (zh) * 2016-11-09 2017-05-31 武汉泰迪智慧科技有限公司 一种多维度短文本特征提取方法及***
CN106776566A (zh) * 2016-12-22 2017-05-31 东软集团股份有限公司 情感词汇的识别方法及装置
CN106776566B (zh) * 2016-12-22 2019-12-24 东软集团股份有限公司 情感词汇的识别方法及装置
US10489510B2 (en) 2017-04-20 2019-11-26 Ford Motor Company Sentiment analysis of product reviews from social media
CN107301248A (zh) * 2017-07-19 2017-10-27 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN107301248B (zh) * 2017-07-19 2020-07-21 百度在线网络技术(北京)有限公司 文本的词向量构建方法和装置、计算机设备、存储介质
CN108710620A (zh) * 2018-01-18 2018-10-26 郝宁宁 一种基于用户的k-最近邻算法的图书推荐方法与***
CN108710620B (zh) * 2018-01-18 2022-05-20 日照格朗电子商务有限公司 一种基于用户的k-最近邻算法的图书推荐方法
CN110609936A (zh) * 2018-06-11 2019-12-24 广州华资软件技术有限公司 一种模糊地址数据智能分类的方法
CN108984724A (zh) * 2018-07-10 2018-12-11 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法
CN108984724B (zh) * 2018-07-10 2021-09-28 凯尔博特信息科技(昆山)有限公司 利用高维表示提高特定属性情感分类准确率方法
CN109165298B (zh) * 2018-08-15 2022-11-15 上海五节数据科技有限公司 一种自主升级且抗噪的文本情感分析***
CN109165298A (zh) * 2018-08-15 2019-01-08 上海文军信息技术有限公司 一种自主升级且抗噪的文本情感分析***
CN109739494A (zh) * 2018-12-10 2019-05-10 复旦大学 一种基于Tree-LSTM的API使用代码生成式推荐方法
CN109783800B (zh) * 2018-12-13 2024-04-12 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109783800A (zh) * 2018-12-13 2019-05-21 北京百度网讯科技有限公司 情感关键词的获取方法、装置、设备及存储介质
CN109885833A (zh) * 2019-02-18 2019-06-14 山东科技大学 一种基于多域数据集联合嵌入的性感极性检测方法
WO2020244073A1 (zh) * 2019-06-06 2020-12-10 平安科技(深圳)有限公司 基于语音的用户分类方法、装置、计算机设备及存储介质
CN110321562A (zh) * 2019-06-28 2019-10-11 广州探迹科技有限公司 一种基于bert的短文本匹配方法及装置
CN110866087A (zh) * 2019-08-12 2020-03-06 上海大学 一种基于主题模型的面向实体的文本情感分析方法
CN110866087B (zh) * 2019-08-12 2023-11-17 上海大学 一种基于主题模型的面向实体的文本情感分析方法
CN112183067A (zh) * 2020-09-23 2021-01-05 夏一雪 一种大数据环境下网络舆情人工智能分析***
CN112183067B (zh) * 2020-09-23 2022-05-27 夏一雪 一种大数据环境下网络舆情人工智能分析***
CN113361585A (zh) * 2021-06-02 2021-09-07 浪潮软件科技有限公司 一种基于有监督学习算法优化筛选线索的方法

Similar Documents

Publication Publication Date Title
CN105335352A (zh) 基于微博情感的实体识别方法
Jain et al. Application of machine learning techniques to sentiment analysis
Sharif et al. Sentiment analysis of Bengali texts on online restaurant reviews using multinomial Naïve Bayes
US10606946B2 (en) Learning word embedding using morphological knowledge
BaygIn Classification of text documents based on Naive Bayes using N-Gram features
Gaikwad et al. Multiclass mood classification on Twitter using lexicon dictionary and machine learning algorithms
CN107357895A (zh) 一种基于词袋模型的文本表示的处理方法
Dedhia et al. Ensemble model for Twitter sentiment analysis
Nguyen et al. An ensemble of shallow and deep learning algorithms for Vietnamese sentiment analysis
Shahade et al. Multi-lingual opinion mining for social media discourses: An approach using deep learning based hybrid fine-tuned smith algorithm with adam optimizer
Campbell et al. Content+ context networks for user classification in twitter
Patil Fake news detection using majority voting technique
Kaysar et al. Word sense disambiguation of Bengali words using FP-growth algorithm
CN113434668B (zh) 一种基于模型融合的深度学习文本分类方法及***
Tang et al. Text semantic understanding based on knowledge enhancement and multi-granular feature extraction
Barkovska et al. A Conceptual Text Classification Model Based on Two-Factor Selection of Significant Words.
Tur et al. Cost-sensitive classifier for spam detection on news media Twitter accounts
Christopoulou et al. Mixture of topic-based distributional semantic and affective models
Iyer et al. A heterogeneous graphical model to understand user-level sentiments in social media
Wrzalik et al. Balanced word clusters for interpretable document representation
Shahade et al. Deep learning approach-based hybrid fine-tuned Smith algorithm with Adam optimiser for multilingual opinion mining
Ariwibowo et al. Hate Speech Text Classification Using Long Short-Term Memory (LSTM)
Aich et al. Content based spam detection in short text messages with emphasis on dealing with imbalanced datasets
Abainia et al. Neural Text Categorizer for topic identification of noisy Arabic Texts
Babour et al. Tweet sentiment analytics with context sensitive tone-word lexicon

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20160217

WD01 Invention patent application deemed withdrawn after publication